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摘 要 : 针对 传统 出 版 模式 下 文字 校对 存在 校对 出 错误 个 数 与 真实 错误 个 数 相差 较 大 ， 并 且 无 法 给 出 准确 性 更 高 的 合理 改正 
建议 等 问题 。 通 过 构建 文本 编辑 错误 校对 模型 、 错 误 检 测 前 的 数据 平滑 处 理 、 基 于 数字 化 校对 技术 的 错误 检测 、 文 本 编辑 错 
误 改 正 与 出 版 等 ， 开 展 数字 化 校对 技术 在 数字 出 版 中 的 应 用 研究 。 通 过 对 比 数字 化 校对 与 传统 校对 应 用 效果 的 方式 证 明 ， 基 
于 数字 化 校对 技术 的 数字 出 版 校对 出 错误 个 数 与 真实 错误 个 数 相 同 ， 并 且 能 够 给 出 提高 准确 率 的 改正 建议 。 


关键 词 : 数字 化 出 版 ; 数字 校对 ; 文本 编辑 ; 数据 处 理 ; 应 用 效果 


文章 编号 : 1671-0134 ( 2022 ) 05-126-03 


中 图 分 类 号 : G23 文献 标识 码 : A 


DOI: 10.19483/j.cnki.11—4653/n.2022.05.039 


本 文 著录 格式 : 郑 晓 慧 . 数字 化 校对 技术 在 数字 出 版 中 的 应 用 由. 中 国 传媒 科技 ，2022 ( 05 ) : 126--128. 


导语 

当前 ， 越 来 越 多 的 网 络 信息 技术 出 现 ， 并 应 用 于 各 
个 领域 当中 ， 同 时 在 社会 需求 不 断 推动 下 ， 数 字 化 的 出 
版 形式 产生 。 数字 出 版 是 将 网 络 信息 技术 作为 技术 支撑 ， 
通过 更 具 网 络 化 的 传播 渠道 ， 实 现 传播 、 阅 读 和 生产 方 
式 的 数字 化 。 数 字 出 版 在 发 展 过 程 中 ， 为 了 不 断 适 应 和 
完善 ， 逐 渐 演变 出 了 多 种 类 型 的 出 版 方式 。 数字 出 版 
与 传统 出 版 相 比 更 具 交 互 性 ， 并 且 传 播 速 度 更 快 ， 可 拓 
展 面 更 广 , 在 极 大 程度 上 提高 了 人 们 对 图 书 的 阅读 需求 ， 


内 容 的 错误 是 否 完全 进行 了 修订 ， 以 此 实现 对 文本 编辑 
错误 的 有 效 校 对 。 

根据 上 述 论述 ， 在 明确 文本 编辑 错误 校对 模型 的 基 
本 需要 后 ,设计 如 图 1 所 示 的 模型 总 体 框架 。 


也 进一步 充实 了 现 有 图 书 资源 。 但 随 着 数字 出 版 发 展 速 
度 的 不 断 提升 ， 在 为 其 带 来 创新 的 同时 ， 也 使 得 诸多 问 
题 产生 ， 例 如 数字 出 版 信息 数据 量 成 倍增 加 ， 对 校对 、 
编辑 等 都 造成 巨大 的 负担 ,外 为 了 进一步 探究 数字 化 校 
对 技术 在 数字 出 版 当中 的 应 用 及 应 用 效果 ， 本 文 开展 下 
述 研 究 。 
1. 数字 化 校对 技术 在 数字 出 版 中 的 应 用 
1.1 构建 文本 编辑 错误 校对 模型 

为 了 提高 数字 出 版 的 质量 ， 解 决 文本 内 容 在 编辑 
出 现 错误 的 次 数 ， 本 节 提 出 一 种 针对 文本 编辑 错误 的 校 
对 模型 。 假 设 在 编辑 文本 内 容 时 ， 语 句 中 文本 内 容 表 示 
为 S， 则 S=S1，S2，S3…Sn， 其 中 1~n 表示 构成 文本 内 
容 的 多 个 字 节 ， 在 此 基础 上 ， 采 用 全 局 检索 的 方式 ， 对 
其 中 容易 存在 混淆 的 文字 进行 矩阵 构建 。 并 使 用 数字 编 
辑 设备 中 的 统计 功能 项 ， 进 行 全 局 参数 的 宏观 调控 ， 确 
保 对 编辑 空间 内 文本 数量 统计 结果 的 真实 性 与 有 效 性 。 
为 了 确保 文本 编辑 错误 校对 模型 在 使 用 中 的 有 效 性 ， 可 
在 圈定 检索 空间 后 ， 使 用 文字 统计 法 ， 进 行 混 痛 集合 的 
人 工 识别 与 校对 , 人 工 操作 编辑 界面 后 , 输出 错误 项 集合 ， 
并 使 用 文本 中 的 替换 功能 ， 进 行 修正 内 容 的 重新 校正 ， 
以 此 种 方式 ， 确 保 文本 内 容 中 所 有 校正 的 内 容 与 局 部 修 
需求 匹配 。 但 在 此 过 程 中 应 注意 的 是 , 在 改正 错误 时 ， 
使 用 标注 进行 混淆 文本 的 标记 ， 并 重点 关注 此 部 分 文本 
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图 1 文本 编辑 错误 校对 模型 总 体 框架 结构 图 


从 图 1 中 文本 编辑 错误 校对 模型 总 体 框 架 结构 可 以 
看 出 ， 检 测 错误 部 分 输入 的 目标 为 需要 进行 校对 的 文本 
字符 信息 串 ， 输 出 的 结果 为 可 能 存在 文本 错误 的 位 置 。" 
当 将 需要 进行 校对 的 文本 字符 信息 串 输 入 到 构建 的 文本 
编辑 错误 校对 模型 当中 时 , 根据 局 部 文本 的 上 下 文 语 境 ， 
将 可 能 存在 错误 的 文本 进行 划分 ， 并 将 该 区 域 作为 后 续 
错误 检测 的 重点 位 置 区 域 。 在 对 真实 存在 错误 的 文本 进 
行 改正 后 ， 再 返回 到 上 一 阶段 完成 对 错误 检测 结果 的 报 
告 生成 ， 并 给 出 相应 的 改正 建议 。 
1.2 错误 检测 前 的 数据 平滑 处 理 

按照 本 文 上 述 论 述 内 容 ， 完 成 对 文本 编辑 错误 校对 
模型 的 构建 后 ， 为 了 确保 后 续 错误 检测 的 精度 ， 在 检测 前 
还 需要 对 数据 进行 平滑 处 理 。 由 于 需要 进行 校对 的 文本 当 
中 存在 多 种 不 同 的 错误 成 分 类 型 ， 并 且 存 在 错误 词语 的 位 
置 上 ， 其 左右 相 邻 的 文本 会 出 现 数据 稀 玻 的 问题 ， 上 述 问 
题 的 存在 会 造成 检测 难度 增加 ， 因 此 从 多 个 方面 实现 对 数 
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据 的 平滑 处 理 。 思 首先 ， 针 对 文本 窗口 缩小 的 问题 进行 数 
据 平滑 处 理 。 图 2 为 文本 窗口 数据 稀 朴 现象 示意 图 。 
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图 2 文本 窗口 数据 稀 朴 现象 示意 图 


图 2 中 “x” 符 号 表示 为 在 文本 窗口 当中 前 后 三 个 
文字 对 出 现 了 稀 玖 问题 ，“V” 符 合 表示 为 文本 和 窗口 当 
中 前 后 三 个 文字 对 未 出 现 稀 玻 问题 。 从 图 1 中 所 示 的 内 
容 可 以 看 出 ， 若 需要 进行 校对 的 文字 当中 其 字符 信息 串 
0~1 是 按照 正确 的 方式 出 现 ， 而 字符 信息 串 0~2 在 文本 
窗口 当中 出 现 了 数据 稀 玻 问题 ， 则 说 明 2 本 映 是 一 个 存 
在 错误 的 词语 或 2 本身 是 正确 的 词语 , 但 与 0~1 字符 信 
息 串 连接 后 存在 错误 。m 针对 上 述 存在 问题 ， 对 其 进行 
数据 平滑 处 理 ， 其 计算 公式 为 : 

S,=axy,+(l—-a)xS, (1) 

公式 (1) 中 ，a 表示 为 平滑 系数 ; 力 ,表示 为 在 某 一 
时 刻 n 下 ,文本 窗口 平滑 处 理 后 的 数据 值 ，5,-1 表 示 为 在 
前 一 时 刻 通过 平滑 处 理 后 的 数据 值 ，5, 表示 为 经 过 平滑 
处 理 后 的 数据 值 。 根 据 上 述 公 式 ， 针 对 图 1 当中 存在 的 
稀 玻 问题 进行 平滑 处 理 ， 在 处 理 的 过 程 中 ， 将 第 一 次 输 
入 的 原始 文本 数据 作为 初始 状态 数值 ， 或 将 前 几 次 输入 
的 原始 数据 值 的 平均 值 作为 初始 状态 数值 。 

其 次 ， 再 对 聚 类 词 进行 数据 平滑 处 理 。 根 据 以 往 数 
字 出 版 语言 使 用 的 经 验 得 出 ， 在 文本 当中 存在 很 多 同 义 
词 或 近义词 ， 通 过 其 相互 之 间 的 转换 ， 句 子 本 吴 几 乎 不 
会 存在 差异 , 例如 “ 观 ” 和 “看 ”、“ 认 识 ” 和 “知道 ” 
等 。 中 通过 近义词 之 间 的 相互 转换 ， 可 以 达到 对 文本 数 
据 平滑 处 理 的 效果 。 在 进行 平滑 处 理 的 过 程 中 ， 还 可 引 
入 同类 词 预料 的 方法 , 例如 如 下 公式 (2 ) 表示 同类 词 集 : 

NdL2 <N(U2 XY;,**,n) (2) 

公式 (2) 中 ，X 表示 为 需要 进行 校对 的 目标 文本 ; 
XX 表示 为 文本 当中 某 一 字符 i 的 同类 词 集 。 通 过 上 述 操 
作 ， 对 文本 窗口 缩小 和 聚 类 词 进行 数据 评价 处 理 后 ， 能 
够 确保 后 续 错误 检测 的 准确 度 不 受 影响 ， 提 高 数字 化 校 
对 技术 的 应 用 性 能 。 

1.3 基于 数字 化 校对 技术 的 错误 检测 
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的 词语 将 其 取 值 设置 为 1, 针对 不 适合 上 下 文 语义 的 词语 ， 
将 其 取 值 设置 为 0。 每 个 分 配器 都 与 文本 上 下 文 特征 相关 
联 ， 并 且 为 每 一 个 关联 对 象 设置 不 同 的 连接 权 值 。 针 对 
需要 进行 校对 的 目标 词语 进行 获取 ， 并 在 该 词语 上 下 连 
接 的 文本 当中 提取 特征 ， 将 所 有 特征 进行 汇总 ， 并 得 到 
如 公式 (3 ) 所 示 的 表达 结果 : 

0=1© > w >e (3) 

fer 

公式 (3 ) 中 ，9 表 示 为 利用 分 配器 进行 分 类 后 得 到 的 
结果 ; 了 表示 为 提取 到 的 特征 集合 ， 光 表示 为 分 配器 判定 
结果 数值 ，W 的 取 值 为 0 或 1; 了 表示 为 特征 集合 中 的 某 
一 特征 数值 ;< 表示 为 分 类 常数 。 在 错误 检测 过 程 中 ， 所 
有 连接 的 权 值 均 为 分 配器 通过 多 次 学 习 获 得 的 。 因 此 ， 权 
值 的 学 习 可 以 看 作 是 分 配器 判定 错误 的 时 候 对 取 值 进行 调 
整 的 动态 过 程 。 根 据 学 习 过 程 中 ， 不 同类 型 分 类 器 的 实际 
表现 ， 为 其 赋予 不 同 的 可 行 度 权 值 ， 并 将 其 带 入 到 上 述 构 
建 的 文本 编辑 错误 校对 模型 当中 ,实现 对 错误 文本 的 检测 。 
1.4 文本 编辑 错误 改正 与 出 版 

首先 ， 从 最 小 编辑 距离 角度 出 发 ， 无 论 是 在 对 自然 
语言 进行 理解 还 是 处 理 的 过 程 中 ， 都 会 出 现 两 个 字符 之 
间 的 距离 问题 ， 这 种 距离 与 普通 意义 上 的 距离 不 同 ， 是 
痢 语 义 距 离 或 编辑 距离 。 在 进行 文本 编辑 错误 改正 过 程 
1， 通 过 对 两 个 字符 之 间 的 最 小 编辑 距离 进行 调整 ， 可 
以 实现 对 其 改正 。 假 设 某 一 字符 信息 串 为 A， 其 长 度 对 
应 为 a， 另 一 字符 信息 串 为 B， 其 长 度 对 应 为 b， 则 此 时 
A 和 B 之 间 的 编辑 距离 为 ed ( A[a]，B[b] ) 。 在 进行 改正 
的 过 程 中 ， 编 辑 操作 会 引起 “时 间 ” 问 题 产生 ， 需 要 一 
定 的 “时 间 ” 才 能 够 缩短 两 个 字符 信息 串 之 间 的 编辑 距离 。 
在 改正 中 ,通常 设 定 一 次 的 编辑 改正 操作 需要 使 用 单位 1 
的 “时 间 ”， 一 次 才能 够 将 编辑 距离 的 “时 间 ” 量 的 计 
算 等 价 转换 为 字符 信息 串 编辑 操作 的 次 数 ， 方 便 对 错误 
改正 次 数 的 记录 。 

还 可 以 通过 易 混 消 集 构建 的 方式 ， 对 文本 编辑 错误 
进行 改正 。 将 所 有 具有 与 被 校对 词语 在 某 一 特征 上 存在 
相似 的 不 同 词语 汇总 ， 并 构成 一 个 易 混 消 集 合 。 这 种 特 
征 可 以 是 词语 本 身 含义 的 相同 ， 也 可 以 是 形 或 音 等 某 个 
方面 上 的 相同 。 通 过 对 文本 编辑 错误 进行 观察 ， 通 常情 
况 下 产生 的 文本 错误 是 由 于 文本 当中 正确 词语 被 其 相应 
的 易 混淆 集合 当中 的 词语 所 代 蔡 。 因 此 ， 为 了 将 其 修改 
为 正确 的 词语 , 将 易 混淆 集合 作为 重要 的 候选 词语 集合 。 
由 于 文字 数量 较 大 , 因此 易 混淆 集合 在 构建 时 难度 较 高 ， 
为 了 降低 构建 难度 ， 利 用 现 有 词典 附录 扩充 的 方式 构建 


在 检测 前 还 需要 将 彼此 容易 混淆 的 词语 进行 收集 ， 
并 形成 混淆 集合 。 在 一 个 混淆 集合 当中 包含 了 容易 在 使 
用 过 程 中 与 校对 目标 词 出 现 混 淆 的 词语 。 在 错误 检测 的 
过 程 中 ， 引 入 一 个 分 配 带 ， 用 于 对 文本 当中 不 同 词语 进 
行 分 类 。 在 分 类 器 进行 过 程 中 能 够 ， 对 适合 上 下 文 语义 


易 混 消 集 合 ， 以 此 在 易 混 淆 集合 的 基础 上 完成 对 文本 编 
辑 错误 的 改正 。 按 照 上 述 内 容 将 完成 改正 后 的 文本 输出 ， 
并 通过 人 工 校对 的 方式 , 对 其 进行 二 次 校对 和 三 次 校对 ， 
最 终 将 完成 校对 的 文本 汇总 ， 构 成 最 终 出 版 时 的 图 书 类 
型 ， 以 此 完成 对 图 书 的 校对 和 出 版 。 
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2. 数字 化 校对 与 传统 校对 应 用 效果 分 析 

为 了 探究 数字 化 校对 技术 应 用 后 的 数字 出 版 与 传统 
出 版 方式 相 比 是 否 具备 更 高 的 应 用 优势 ， 本 文选 择 以 某 
个 图 书 的 原始 稿件 作为 研究 对 象 ， 分 别 通 过 两 种 出 版 方 
式 下 的 校对 方法 ， 对 原始 稿件 进行 校对 ， 并 记录 两 种 校 
对 方法 的 应 用 效果 。 在 实验 过 程 中 ， 将 原始 稿件 当中 的 
所 有 文字 内 容 设 置 为 开放 完全 测试 集 ， 该 集合 当中 包含 
了 200 个 错误 用 例 ， 记 录 两 种 方法 校对 得 到 的 真实 错误 
数量 以 及 合理 给 出 改正 建议 的 个 数 ， 并 通过 计算 得 出 改 
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正 建议 的 准确 率 。 由 于 两 种 校对 方法 在 实际 应 用 中 计 错 
误 个 数 方式 不 同 ， 为 了 确保 实验 结果 的 公正 性 ， 对 其 错 
误 文 字 计 数 标准 进行 规定 : 首先 ， 针 对 同一 页 面 当 中 反 
复出 现 的 错误 文字 ， 最 多 标记 为 四 个 错误 个 数 ; 其 次 ， 
针对 以 页 上 出 现 的 文字 错误 , 最 多 标记 为 两 个 错误 个 数 ; 
最 后 ， 针 对 文章 当中 存在 影响 语义 、 不 符合 版 面 要 求 的 
文字 或 需要 空格 而 未 空格 的 错误 , 每 处 计 1 个 错误 个 数 。 
按照 上 述 错误 文字 计数 标准 ， 记 录 两 种 校对 方法 的 校对 
结果 ， 并 绘制 成 如 表 1 所 示 的 结 


表 1 数字 化 校对 与 传统 校对 应 用 效果 对 比 


数字 化 校对 


传统 校对 


真实 错误 个 数 /个 
校对 出 错误 个 数 /个 


给 出 合理 改正 建议 个 数 /个 


校对 出 错误 个 数 /个 


给 出 合理 改正 建议 个 数 /个 


100 99 99 69 60 
150 149 149 102 98 
200 200 200 162 131 
从 表 1 中 记录 的 实验 数据 可 以 看 出 ， 尽 管 真实 错 。 用 性 能 。 加 
误 个 数 为 50 个 时 的 校对 出 错误 个 数 为 48 个， 但 随 着 
校对 真实 错误 个 数 的 增加 ， 数 字 化 校对 能 够 对 之 前 完 。 功 老 色 大 JJiag 


成 的 校对 内 容 进 行 反复 检查 ， 因 此 能 够 确保 将 最 终 所 
有 200 个 真实 错误 个 数 全 部 检测 出 来 。 但 传统 校对 方法 
在 完成 对 之 前 内 容 的 校对 后 ， 不 会 对 其 进行 反复 检查 ， 
因此 最 终 造成 校对 出 错误 个 数 与 真实 错误 个 数 相 差 较 大 
的 问题 产生 。 数 字 化 校对 能 够 实现 对 所 有 开放 完全 测试 
集中 错误 内 容 的 标记 ， 并 给 出 相应 的 改正 意见 ， 而 传统 
校对 方法 校对 出 错误 个 数 相 比较 少 ， 并 且 无 法 针对 已 经 
发 现 的 校对 错误 给 出 相应 的 改正 意见 。 通 过 进一步 对 两 
种 校对 方法 的 改正 建议 准确 率 计 算得 出 ， 数 字 化 校对 
的 准确 率 高 达 100%， 而 传统 校对 方法 的 准确 率 仅 为 : 
131 = 200 x 100%=65.5%。 因 此 ， 通 过 上 述 实验 及 得 出 的 
实验 结果 可 以 证 明 ， 数 字 化 校对 方法 在 应 用 到 数字 出 版 
当中 时 ， 能 够 实现 对 所 有 错误 内 容 的 准确 校对 ， 并 给 出 
准确 率 更 高 的 改正 建议 。 将 该 技术 应 用 到 数字 出 版 当中 ， 
可 进一步 促进 出 版 行业 向 着 数字 化 、 信息 化 的 方向 发 展 。 
结语 

数字 化 校对 技术 不 仅 可 以 应 用 在 出 版 领域 中 ， 还 可 
应 用 于 各 类 文字 处 理 领域 当中 ， 未 来 随 着 数字 化 校对 技 
术 的 不 断 完善 ， 其 校对 应 用 性 能 也 将 逐渐 提升 ， 从 最 基 
础 的 自动 分 词 ， 到 语义 语法 分 析 等 。 尽 管 当前 数字 化 校 
对 技术 的 应 用 仍然 处 于 刚刚 起 步 的 阶段 ， 未 来 还 会 遇 到 
更 大 的 困难 和 挑战 。 从 当前 研究 水 平 来 看 ， 仍 然 存 在 几 
方面 问题 需要 解决 。 例 如 ， 当 前 数字 化 校对 受到 错误 实 
例 缺 少 等 多 种 条 件 限 制 ;基于 长 词 模糊 匹配 对 校对 技术 
进行 优化 等 。 在 今后 研究 中 ， 还 将 针对 上 述 存在 问题 进 
行 更 加 深入 研究 ， 从 而 进一步 提高 数字 化 校对 技术 的 应 
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